## Parsed with column specification:
## cols(
## series_name = col_character(),
## episode = col_character(),
## series_ep = col_integer(),
## season = col_integer(),
## season_ep = col_integer(),
## url = col_character(),
## user_rating = col_double(),
## user_votes = col_double(),
## r1 = col_double(),
## r2 = col_double(),
## r3 = col_double(),
## r4 = col_double(),
## r5 = col_double(),
## r6 = col_double(),
## r7 = col_double(),
## r8 = col_double(),
## r9 = col_double(),
## r10 = col_double()
## )
Antes de responder a esta pergunta podemos tentar ter um panorama geral do comportamento das notas atribuídas a cada temporada de uma série. Nos gráficos abaixo podemos ver, por exemplo, que os produtores de American Idol foram bastante persistentes uma vez que desde a primeira teporada o show não foi bem recebido pelo público. Depois de muitos altos e baixos, na 12ª temporada quando a nota foi a segunda pior da sua história, as temporadas seguintes vêm mostrando um crescimento bastante alto atingindo a nota máxima, 6.72 na 15ª temporada.
Porém também podemos observar casos em que aparentemente os produtores não souberam quando parar. Os Simpsons ilustra bem essa situação. A série passa bastante tempo bem sucedida mas a partir mais ou menos da 11ª temporada, sua nota começa a cair bastante chegando a 6.67 na 28ª temporada.
Outro fato interessante é que quando começam, as séries ficam num limbo entre aproximadamente 6.8 e 9.2 e aparentemente há um processo de funilamento até a 8ª temporada. Outra coisa que chama atenção é um conjunto de séries que aparecem com um traço sempre crescente até mais ou menos a 4ª temporada.
series_by_season = series %>%
group_by(series_name, season) %>%
summarise(mean_user_rating = mean(user_rating))
series_by_season %>%
ggplot(aes(x = season, y = mean_user_rating, group = series_name)) +
geom_line(size = 0.1, alpha = 0.5)
means_by_season = plot_ly(series_by_season,
x = ~season,
y = ~mean_user_rating,
color = ~series_name,
type = "scatter",
mode = "lines") %>%
layout(showlegend = FALSE,
title = "Nota IMDB ao Longo das Temporadas",
xaxis = list(title = "Nota IMDB"),
yaxis = list(title = "Temporada"))
means_by_season
Mas para de fato responder a esta pergunta, devemos checar se existe uma correlação linear entre a quantidade de temporadas e a nota “absoluta” de uma série. Sendo a nota “absoluta” a média de todas as avaliações dadas àquela série.
absolute_mean_series = series %>%
group_by(series_name) %>%
summarise(mean_user_rating = mean(user_rating),
total_seasons = n_distinct(season))
seasons_vs_user_rating = absolute_mean_series %>%
plot_ly(x = ~total_seasons,
y = ~mean_user_rating,
marker = list(size = 10,
line = list(width = 2))
) %>%
layout(title = "Relação Entre a Nota de uma Série e Quantidade de Temporadas",
xaxis = list(title = "Total de Temporadas"),
yaxis = list(title = "Nota da Série"))
seasons_vs_user_rating
cor(absolute_mean_series$total_seasons, absolute_mean_series$mean_user_rating,
method = "pearson")
## [1] 0.04835904
Já pelo gráfico, podemos deduzir que não há uma correlação linear forte entre a nota de uma série e o total de temporadas dela. O que se confirma ao calcularmos o coeficiente linear de Pearson, que é igual a 0.048, como é próximo de zero, podemos afirmar que a correlação linear entre as variáveis é fraca. Mas podemos observar que aparentemente quanto mais temporadas mais as notas convergem para 8. Esse seria o funil observado nos gráficos anteriores.
Consideraremos séries de sucesso, aquelas que possuem nota acima de 8.9.
O fato de não haver correlação entre a quantidade de séries e sua nota IMDB também fica evidenciado aqui, uma vez que as séries variam de 1 a 6 temporadas. Mas existe uma concentração maior de séries bem sucedidas com 2 e 3 temporadas.
success_series = absolute_mean_series %>%
filter(mean_user_rating > 8.9)
plot_success_series = success_series %>%
plot_ly(x = ~total_seasons,
y = ~mean_user_rating,
type = "bar",
color = ~series_name) %>%
layout(title = "Total de Temporadas de Séries de Sucesso",
xaxis = list(title = "Total de Temporadas"),
yaxis = list(title = "Nota IMDB"),
barmode = "stack")
plot_success_series
density_success_series = success_series %>%
ggplot(aes(total_seasons)) +
geom_density(fill = "#ff4d4d", alpha = 0.5)
ggplotly(density_success_series)
## We recommend that you use the dev version of ggplot2 with `ggplotly()`
## Install it with: `devtools::install_github('hadley/ggplot2')`
Consideraremos novamente as séries com avaliação acima de 8.9 como bem sucedidas.
badly_rated_series = series_by_season %>%
group_by(series_name) %>%
filter(mean_user_rating <= 8.9)
well_rated_series = series_by_season %>%
filter(!(series_name %in% badly_rated_series$series_name))
Até agora, as únicas séries que conseguiram se manter bem avaliadas em todas as temporadas, foram Super Girl, The Originals, Daredevil, Person of Interest e Outlander.
plot_well_rated_series = well_rated_series %>%
plot_ly(x = ~season,
y = ~mean_user_rating,
color = ~series_name,
type = "scatter",
mode = "lines") %>%
add_markers(x = ~season,
y = ~mean_user_rating,
color = ~series_name) %>%
layout(title = "Series Bem Avaliadas em Todas as Temporadas",
xaxis = list(title = "Temporada"),
yaxis = list(title = "Nota IMDB"))
plot_well_rated_series
Consideraremos uma série mal avaliada aquelas que possuem nota abaixo de 7.
ok_series = series_by_season %>%
filter(mean_user_rating > 7)
badly_rated_series_all_seasons = series_by_season %>%
filter(!(series_name %in% ok_series$series_name))
Usando esses parêmtros de nota, podemos dizer que são produzidas mais séries de má qualidade que séries de boa qualidade. Nota-se também que a maioria das séries que na primeira temporada obtiveram nota menor que 7, não continuaram.
plot_bad_series = badly_rated_series_all_seasons %>%
plot_ly(x = ~season,
y = ~mean_user_rating,
color = ~series_name,
type = "scatter",
mode = "lines") %>%
add_markers(x = ~season,
y = ~mean_user_rating,
color = ~series_name) %>%
layout(showlegend = FALSE,
title = "Séries que Tiveram Todas as Temporadas Mal Avaliadas",
xaxis = list(title = "Temporada"),
yaxis = list(title = "Nota IMDB"))
plot_bad_series
Agora, sabemos que a quantidade de temporadas de uma série não influencia sua nota IMDB, apenas 5 séries tiveram todas as suas temporadas muito bem avaliadas e existem mais séries mal avaliadas que muito bem avaliadas, o que não é estranho.